55 research outputs found

    MAA*: A Heuristic Search Algorithm for Solving Decentralized POMDPs

    Full text link
    We present multi-agent A* (MAA*), the first complete and optimal heuristic search algorithm for solving decentralized partially-observable Markov decision problems (DEC-POMDPs) with finite horizon. The algorithm is suitable for computing optimal plans for a cooperative group of agents that operate in a stochastic environment such as multirobot coordination, network traffic control, `or distributed resource allocation. Solving such problems efiectively is a major challenge in the area of planning under uncertainty. Our solution is based on a synthesis of classical heuristic search and decentralized control theory. Experimental results show that MAA* has significant advantages. We introduce an anytime variant of MAA* and conclude with a discussion of promising extensions such as an approach to solving infinite horizon problems.Comment: Appears in Proceedings of the Twenty-First Conference on Uncertainty in Artificial Intelligence (UAI2005

    Programmation dynamique à base de points pour la résolution des DEC-POMDPs

    Get PDF
    National audienceNous présentons un nouvel algorithme de planification pour la construction de systèmes multi-agents réactifs et situés pouvant se modéliser par des processus de décision de Markov décentralisés (DEC-POMDP). Cet algorithme est fondé sur la programmation dynamique à base de points. Il est dérivé de techniques de programmation dynamique optimale utilisées pour résoudre des jeux stochastiques partiellement observables(POSG) et des techniques d'approximation utilisées pour résoudre des POMDP mono-agents. Nous montrons pour la première fois qu'il est possible de déterminer un ensemble d'états de croyance multi-agent pertinents, et nous montrons comment ce calcul permet ensuite d'éviter le recours à la programmation linéaire très couteuse dans le cas multi-agent. Nous détaillons une version exacte et une version approximative de notre algorithme, et nous montrons son efficacité sur un exemple de la littérature

    MAA*: Un algorithme de recherche heuristique pour la résolution exacte de DEC-POMDPs

    Get PDF
    Nous présentons ici MAA*, le premier algorithme de recherche heuristique à la fois complet et optimal pour résoudre des processus de décision markovien décentralisés (DEC-POMDPs) à horizon fini. Il permet de calculer des plans optimaux pour un groupe d'agents coopératifs dans un environnement stochastique et partiellement observable. La résolution de tels problèmes est particulièrement dur, mais permet d'aborder des domaines importants tels que le contrôle de robots autonomes. Notre approche consiste en une synthèse entre des méthodes de recherche heuristique et la théorie du contrôle décentralisé, et nous sommes capables de montrer qu'elle présente des avantages intéressants vis-à-vis des solutions existantes

    MAA*: A Heuristic Search Algorithm for Solving Decentralized POMDPs

    Get PDF
    We present multi-agent A* (MAA*), the first complete and optimal heuristic search algorithm for solving decentralized partially-observable Markov decision problems (DEC-POMDPs) with finite horizon. The algorithm is suitable for computing optimal plans for a cooperative group of agents that operate in a stochastic environment such as multi-robot coordination, network traffic control, or distributed resource allocation. Solving such problems effectively is a major challenge in the area of planning under uncertainty. Our solution is based on a synthesis of classical heuristic search and decentralized control theory. Experimental results show that MAA* has significant advantages. We introduce an anytime variant of MAA* and conclude with a discussion of promising extensions such as an approach to solving infinite horizon problems

    Analyse théorique du problème de la patrouille multi-agent en utilisant le cadre des processus décisionnels de Markov

    Get PDF
    Patrouiller implique habituellement une équipe d'agents dont le but consiste à visiter aussi fréquemment que possible les zones stratégiques d'un environnement. Pour une telle tâche, les agents impliqués doivent coordonner leurs actions afin d'atteindre des performances optimales. Les recherches actuelles sur le problème de la patrouille multi-agent (ou PPMA) considère généralement que l'environnement est réduit à un graphe métrique. Sous cette hypothèse, ce problème peut donc concerner une large gamme d'applications, telles que la gestion d'un réseau informatique, les jeux vidéo ou la détermination d'itinéraires de véhicules. Dans cet article, nous concentrons notre attention sur des instances particulières de ce problème. Nous considérons uniquement le pire cas où tous les agents commencent à patrouiller à partir d'un noeud donné. Nous formulons le problème de la patrouille multi-agent à l'aide d'un processus décisionnel de Markov (PDM). Trouver une politique optimale de patrouille se réduira alors à résoudre ce PDM. Nous prouvons d'une part que les stratégies multi-agents optimales sont nécessairement cycliques. D'autre part, nous avons montré que déterminer une stratégie de patrouille multi-agent consiste à trouver deux politiques à horizon ni. Un algorithme meilleur d'abord est utilisé pour déterminer une telle politique. Les résultats expérimentaux montrent que, pour toutes les congurations testées, notre approche améliore substantiellement ceux obtenus avec la méthode d'apprentissage par renforcement proposée par Santana et al.

    GRFS and CRFS in alternative donor hematopoietic cell transplantation for pediatric patients with acute leukemia.

    Get PDF
    We report graft-versus-host disease (GVHD)-free relapse-free survival (GRFS) (a composite end point of survival without grade III-IV acute GVHD [aGVHD], systemic therapy-requiring chronic GVHD [cGVHD], or relapse) and cGVHD-free relapse-free survival (CRFS) among pediatric patients with acute leukemia (n = 1613) who underwent transplantation with 1 antigen-mismatched (7/8) bone marrow (BM; n = 172) or umbilical cord blood (UCB; n = 1441). Multivariate analysis was performed using Cox proportional hazards models. To account for multiple testing, P \u3c .01 for the donor/graft variable was considered statistically significant. Clinical characteristics were similar between UCB and 7/8 BM recipients, because most had acute lymphoblastic leukemia (62%), 64% received total body irradiation-based conditioning, and 60% received anti-thymocyte globulin or alemtuzumab. Methotrexate-based GVHD prophylaxis was more common with 7/8 BM (79%) than with UCB (15%), in which mycophenolate mofetil was commonly used. The univariate estimates of GRFS and CRFS were 22% (95% confidence interval [CI], 16-29) and 27% (95% CI, 20-34), respectively, with 7/8 BM and 33% (95% CI, 31-36) and 38% (95% CI, 35-40), respectively, with UCB (P \u3c .001). In multivariate analysis, 7/8 BM vs UCB had similar GRFS (hazard ratio [HR], 1.12; 95% CI, 0.87-1.45; P = .39), CRFS (HR, 1.06; 95% CI, 0.82-1.38; P = .66), overall survival (HR, 1.07; 95% CI, 0.80-1.44; P = .66), and relapse (HR, 1.44; 95% CI, 1.03-2.02; P = .03). However, the 7/8 BM group had a significantly higher risk for grade III-IV aGVHD (HR, 1.70; 95% CI, 1.16-2.48; P = .006) compared with the UCB group. UCB and 7/8 BM groups had similar outcomes, as measured by GRFS and CRFS. However, given the higher risk for grade III-IV aGVHD, UCB might be preferred for patients lacking matched donors. © 2019 American Society of Hematology. All rights reserved

    Ruxolitinib for Glucocorticoid-Refractory Acute Graft-versus-Host Disease

    Get PDF
    BACKGROUND: Acute graft-versus-host disease (GVHD) remains a major limitation of allogeneic stem-cell transplantation; not all patients have a response to standard glucocorticoid treatment. In a phase 2 trial, ruxolitinib, a selective Janus kinase (JAK1 and JAK2) inhibitor, showed potential efficacy in patients with glucocorticoid-refractory acute GVHD. METHODS: We conducted a multicenter, randomized, open-label, phase 3 trial comparing the efficacy and safety of oral ruxolitinib (10 mg twice daily) with the investigator's choice of therapy from a list of nine commonly used options (control) in patients 12 years of age or older who had glucocorticoid-refractory acute GVHD after allogeneic stem-cell transplantation. The primary end point was overall response (complete response or partial response) at day 28. The key secondary end point was durable overall response at day 56. RESULTS: A total of 309 patients underwent randomization; 154 patients were assigned to the ruxolitinib group and 155 to the control group. Overall response at day 28 was higher in the ruxolitinib group than in the control group (62% [96 patients] vs. 39% [61]; odds ratio, 2.64; 95% confidence interval [CI], 1.65 to 4.22; P<0.001). Durable overall response at day 56 was higher in the ruxolitinib group than in the control group (40% [61 patients] vs. 22% [34]; odds ratio, 2.38; 95% CI, 1.43 to 3.94; P<0.001). The estimated cumulative incidence of loss of response at 6 months was 10% in the ruxolitinib group and 39% in the control group. The median failure-free survival was considerably longer with ruxolitinib than with control (5.0 months vs. 1.0 month; hazard ratio for relapse or progression of hematologic disease, non-relapse-related death, or addition of new systemic therapy for acute GVHD, 0.46; 95% CI, 0.35 to 0.60). The median overall survival was 11.1 months in the ruxolitinib group and 6.5 months in the control group (hazard ratio for death, 0.83; 95% CI, 0.60 to 1.15). The most common adverse events up to day 28 were thrombocytopenia (in 50 of 152 patients [33%] in the ruxolitinib group and 27 of 150 [18%] in the control group), anemia (in 46 [30%] and 42 [28%], respectively), and cytomegalovirus infection (in 39 [26%] and 31 [21%]). CONCLUSIONS: Ruxolitinib therapy led to significant improvements in efficacy outcomes, with a higher incidence of thrombocytopenia, the most frequent toxic effect, than that observed with control therapy

    Définition autonome de sous-problèmes dans l'apprentissage par renforcement

    No full text
    Colloque avec actes et comité de lecture. nationale.National audiencePlusieurs approches ont été développées pour structurer et faciliter l'apprentissage d'une tâche en utilisant des solutions de tâches plus simples ou moins complexes. Ces approches, souvent nommées apprentissage hiérarchique ou incrémental, nécessitent normalement une décomposition de la tâche par un humain, ou bien la définition de sous-tâches pouvant être utilisées, mais il n'existe pratiquement pas d'algorithmes qui procèdent à la décomposition des problèmes complexes en des tâches plus simples de façon autonome. Nous allons proposer un moyen général permettant la définition de sous-problèmes dans le cadre de l'apprentissage par renforcement, basé sur l'observation de changements dans l'environnement. Nous allons ensuite montrer comment résoudre ces sous-problèmes et comment les solutions à ces derniers peuvent être utilisées pour résoudre le problème initial
    corecore